WIPO专利WO1987005734A1 Process for differentiating speech signals from signals of noise-free or noise-affected speech pause

专利PDF首页>>WIPO专利

专利附录

专利说明

权利要求

类似技术

同族专利

引用文献

法律状态

优先权

专利摘要:

公开号:WO1987005734A1
申请号:PCT/EP1987/000154
申请日:1987-03-18
公开日:1987-09-24
发明作者:Peter-Grauer Jensen
申请人:Siemens Aktiengesellschaft；
IPC主号:G10L25-00

专利说明:
[0001] Verfahren zur Unterscheidung von Sprachsignalen von Signalen geräuschfreier oder geräuschbehafteter Sprachpausen
[0002] Aus der "COMSAT TECHNICAL Review", Bd. 6, Nr. 1, Frühjahr 1976, Seiten 159 - 178, ist eine in Digitaltechnik realisierte sprachgesteuerte Schalteinrichtung zur Erkennung von Sprache und Geräusch bekannt. Die bekannte Schalteinrichtung bildet einen variablen Sprachschwellwert und einen von diesem abhängigen Geräuschschwellwert. Der Sprachschwellwert wird geändert, wenn drei aufeinanderfolgende Pegel des Sprachsignals den Sprachschwellwert überschreiten. Der Geräuschschwellwert wird geändert, wenn in einem festgelegten Zeitraum von 150 ms auftretendes Geräusch den Geräuschschwellwert mindestens eine bestimmte Zahl unter- oder überschreitet. Hierdurch ergibt sich zum einen eine lange Einschwingzeit für die Pegelregulierung, zum anderen wird die Zählung stets mit dem Auftreten von Sprache unterbrochen, also auch vor Ablauf des Zählzeitraumes, so daß die an sich notwendige Pegelregulierung unterbleibt. Bei geringem Rauschabstand und bei geringen Sprachpegeln wird Sprache nicht sicher erkannt. Dies ist insbesondere in Sprachspeichersystemen - Voice Mail - als störend anzusehen, in denen gesprochene Informationen digital verschlüsselt abgespeichert und Sprachpausen als entsprechende Pausenkennung mit einer die Länge der Pause angebenden Zeitinformation gespeichert worden. Nicht als Sprache erkannte Information wird dadurch vollständig unterdrückt.
[0003] Die Erfindung geht aus von diesem Verfahren zur Unterscheidung von Sprachsignalen von Signalen geräuschfreier oder geräuschbehafteter Sprachpausen in einer Datenfolge mittels eines unter Berücksichtigung von den Sprachpausensignalen entsprechenden Sprachpausenpegeln variierbaren Pegelschwellwertes.
[0004] Der Erfindung liegt die Aufgabe zugrunde, dieses Verfahren derart auszugestalten, daß die sichere Erkennung von Sprache und Sprachpausen relativ kurz nach ihrem Auftreten und auch bei geringem Geräusch bzw. Rauschabstand von Sprachpegeln ermöglicht ist.
[0005] Dies wird erfindungsgemäß mit den kennzeichnenden Merkmalen des Patentanspruchs 1 erreicht.
[0006] Der mit dem erfindungsgemäßen Verfahren erzielte Vorteil liegt insbesondere darin, daß der zwischen. Geräuschpegel und Sprachpegel liegende Pegelschwellwert sich den Pegelverhältnissen auf der Leitung, das heißt den absoluten Pegelwerten bei der Übertragung von Sprache und in Sprachpausen als auch dem Abstand dieser Pegel voneinander anpasst. Wesentliche Voraussetzungen hierfür sind die Registrierung der Spitzenwerte und der Niedrigwerte der aufgenommenen Pegel. Durch die einerseits sofortige Übernahme eines eine bisherige Aufnahmeschwelle überschreitenden Spitzenwertes bzw. unterschreitenden Niedrigwertes und die andererseits allmähliche Absenkung bzw. Anhebung dieser Aufnahmeschwellen wird über verhältnismäßig lange Zeiträume der jeweils maximale auftretende Pegel des Signals festgehalten; kurzzeitige Sprachpausen zwischen aufeinanderfolgenden Wörtern oder Sätzen ändern daher den Wert der Spitzenwert-Aufnahmeschwelle kaum, während andererseits - insbesondere bei Vorsehen einer noch längeren Zeitkonstante - der Wert der Niedrigwert-Aufnahmeschwelle, auch während der Zeit in der Wörter gesprochen werden, kaum ansteigt. Die Niedrigwert-Aufnahmeschwelle stellt somit eine gute Annäherung an den Geräuschpegel in Sprachpausen dar.
[0007] An sich wären beide Schwellwerte jeweils isoliert für sich genommen als Ausgangsgröße für die Bestimmung eines Pegelschwellwertes heranzuziehen. Beispielsweise könnte die jeweils aktuelle Niedrigwert-Aufnahmeschwelle um einen konstanten Faktor erhöht werden oder die aktuelle Spitzenwert-Aufnahmeschwelle um einen bestimmten Betrag verringert werden; beide Methoden würden zur Festlegung eines entweder mit dem Geräuschpegel oder dem Sprachpegel variierenden Pegelschwellwertes führen. Beide Pegelschwellwerte wären jedoch im Hinblick auf die in der Praxix auftretenden, stark unterschiedlichen Pegelverhältnisse, die insbesondere durch die Vielzahl unterschiedlicher Leitungsververbindungen bedingt sind, als nur sehr unvollkommene Trennschwellen zwischen Sprache und Geräusch anzusehen. Legt man z.B. den Pegelschwellwert nur verhältnismäßig geringfügig - 6 dB - über den Niedrigwert-Aufnahmeschwellenwert um bei Sprache mit wenig Dynamik bzw. bei stark geräuschbehafteter Sprache eine einigermaßen sichere Unterscheidung zwischen Sprache und Gerauschen vornehmen zu können, so begibt man sich des Vorteils, bei Sprachinformationen mit höherer Dynamik bzw. mit sehr großem Geräuschabstand den Pegelschwellwert anzuheben um damit eine bessere Imunität gegenüber den störenden Geräuschen zu erhalten. Geht man andererseits von der Spitzenwert-Aufnahmeschwelle aus und veringert zur Bildung des Pegelschwellwertes den aktuellen Spitzenwert-Aufnahmeschwellenwert deutlich - beispielsweise um 12 dB - so kann bei Sprachinformationen geringer Dynamik bzw. mit geringem Geräuschabstand fälschlicherweise auch Geräuschpegel als auf Sprachinformationen zurückzuführend interpretiert werden.
[0008] Diese Nachteile werden auf überraschend einfache Weise durch das erfindungsgemäße Verfahren vermieden. Durch Berücksichtigung der jeweils aktuellen Werte der Spitzenwert-Aufnahmeschwelle und der Niedrigwert-Aufnahmeschwelle für die Bildung des Pegelschwellwertes nach der im Rahmen der Erfindung vorgesehenen Regel ergibt sich, daß bei guter Qualität der Sprachübertragung und damit hohen Sprachpegeln und hoher Dynamik der Pegelschwellwert nahezu allein von der Spitzenwert-Aufnahmeschwelle, dagegen bei schlechter Qualität der Sprachübertragung und damit verbunden niedrigen Pegeln, viel Geräusch und geringer Dynamik zumindest überwiegend von der Niedrigwert-Aufnahmeschwelle bestimmt wird.
[0009] Eine vorteilhafte Weiterbildung der Erfindung sieht in diesem Zusammenhang vor, daß die Pegelregulierungswerte zur Bildung des Pegelschwellwertes miteinander addiert werden. Liegt beispielsweise der von der Spitzenwertaufnahmeschwelle abgeleitete Pegelregulierungswert 30 dB über dem von der Niedrigwert-Aufnahmeschwelle abgeleiteten Pegelregulierungswert, so ergibt eine Addition einen nahezu mit dem ersten dieser beiden Pegelregulierungswerte identischen Wert. Je dichter der kleinere Pegelregulierungswert am größeren der beiden Pegeltegulierungswerte liegt, desto deutlicher liegt der Pegelschwellwert über dem größeren der beiden Pegelregulierungswerte.
[0010] Eine vorteilhafte Weiterbildung der Erfindung basiert auf diesem Zusammenhang und sieht vor, daß bei Unterschreiten eines vorgegebenen Abstandswertes zwischen den beiden Pegelregulierungswerten der größere der beiden Pegelregulierungswerte als Pegelschwellwert benutzt wird.
[0011] Darüber hinaus ist generell denkbar die Pegelregulierungswerte derart zur Bildung des Pegelschwellwertes zu benutzen, daß generell der größere der beiden Pegelregulierungswerte als Pegelschwellwert benutzt wird.
[0012] Im Zusammenhang mit der im Rahmen der Erfindung vorgesehenen allmählichen Absenkung der Spitzenwert-Aufnahmeschwelle und der allmählichen Anhebung der Niedrigwert-Aufnahmeschwelle wird gemäß einer vorteilhaften Weiterbildung der Erfindung vorgesehen, daß die Zeitkonstante für die Absenkung der Spitzenwert-Aufnaheschwelle wenige Sekunden, vorzugsweise 3 Sekunden bis 5 Sekunden, und die Zeitkonstante für die Anhebung der Niedrigwert-Aufnahmeschwelle ein mehrfaches, vorzugsweise etwa das sechs- bis zwölffache beträgt. Dadurch wird einerseits erreicht, daß kurzzeitige Sprachpausen zwischen Wörtern und Sätzen die Spitzenwert-Aufnahmeschwelle kaum verändern und daß andererseits die Niedrigwert-Aufnahmeschwelle während der Zeit, in der Wörter gesprochen werden, kaum ansteigt. Damit sind bezüglich der Veränderungen der beiden Aufnahmeschwellwerte praxisgerechte günstige Verhältnisse gewährleistet. Weitere vorteilhafte Ausgestaltungen der Erfindung betreffen eine Anordnung zur Durchführung des erfindungsgemäßen Verfahrens in all seinen Varianten. Die besonderen Eigenschaften und Vorteile dieser Anordnung bzw. ihrer Komponenten und Konfigurationen ergeben sich anhand eines in 4 Figuren dargestellten Ausführungsbeispiels bzw. der dazugehörigen Beschreibung.
[0013] Es zeigt:
[0014] FIG 1 ein vereinfachtes Blockschaltbild einer Nebenstellenanläge, die mit einer Einheit zur Erkennung und
[0015] Abspeicherung von Sprachinformationen gekoppelt ist, bei der das erfindungsgemäße Verfahren zur Anwendung kommt, FIG 2 ein Blockschaltbild einer Spracherkennungseinrichtung zur Durchführung des erfindungsgemäßen Verfahens, FIG 3 ein Blockschaltbild einer Spitzenwertextraktionseinrichtung, FIG 4 ein Blockschaltbild einer Niedrigwertextraktionseinrichtung.
[0016] FIG 1 zeigt ein vereinfachtes Blockschaltbild einer Kommunikationsnebenstellenanlage KA, die beispielsweise eine rechnergesteuerte, speicherprogrammierte Vermittlungsanlage sein kann. Eine zentrale Steuereinrichtung ZST steuert im wesentlichen die für die einzelnen Betriebsmöglichkeiten der Anlage erforderlichen Abläufe. Dabei greift sie auf entsprechende Programmteile zurück, die in einer ihr zugeordneten Speichereinrichtung P abgespeichert sind. Mit VST ist eine Verteilersteuerung und mit DST eine dezentrale Steuerung, der jeweils eine bestimmte Anzahl von Einrichtungen, wie beispielsweise Teilnehmerstellen Tl bis Tn zugeordnet sind, bezeichnet. Unter der Voraussetzung eines digitalen Vermittlungssystems ist diese dezentrale Teilsteuerung DST funktionsmäßig ein rechnergesteuerter Speicherbereich, in den die digitalen Sprachsignale eingespeichert und zum jeweiligen Verbindungspartner ausgelesen werden. Sie stellt also das digitale Koppelnetz dar. Eine spezielle Verteiler- und Anpassungssteuerung VSt ist mehreren dezentralen Teilsteuerungen DST, an die jeweils Sätze angekoppelt sind, zugeordnet. So erfolgt beispielsweise die Anschaltung der Teilnehmerstellen TI bis Tn über die Sätze VSl bis VSn. Über ein Amtsleitungsbündel bzw. über eine Amtsleitung AL ist die Nebenstellenanlage KA mit einer externen Anlage, beispielsweise mit einer Vermittlungsanlage OA des öffentlichen Netzes verbunden. Stellvertretend für die daran angeschlossenen Endgeräte ist als Endgerät die Teilnehmerstelle Te dargestellt. Der weiterführenden Leitung AL bzw. dem weiterführenden Leitungsbündel ist ein Vermittlungssatz VA zugeordnet. Die dargestellten Vermittlungssätze VA, VSl...VSn, VSx der Nebenstellenanlage KA können als aktive Sätze ausgebildet sein, die einen Prozessor beinhalten. Dieser verarbeitet Informationen vor, die z.B. von den in einem Teilnehmersatz enthaltenen Indikationsstellen geliefert werden. Es kann beispielsweise vorgesehen sein, daß neben den im Regelfall vorgesehenen digitalen Endeinrichtungen auch analoge Endeinrichtungen über entsprechend ausgebildete Sätze angeschlossen sind. Es können also sowohl über eine Amtsleitung AL als auch über eine Teilnehmeranschlußleitung Verbindungen vermittelt werden, denen analoge Sprachinformationen zugrundeliegen. Es ist vorgesehen, daß sowohl in digitaler Form übermittelte Sprachinformationen als auch solche, die als analoge Sprachinformationen übermittelt werden, in einem über einen entsprechenden Satz VSx an die Vermittlungsanlage KA angeschlossenen Sprachspeichersystem VMS verarbeitet werden. In einer Speichereinrichtung SP des Sprachspeichersystems VMS werden an einen bestimmten Teilnehmer gerichtete Sprachinformationen abgespeichert. Dieser Teilnehmer hat dann die Möglichkeit, die Informationen gezielt abzufragen.
[0017] Sowohl beim Erstellen einer Nachricht als auch beim Abhören derselben stehen dem Teilnehmer verschiedene Bedienfunktionen zur Verfügung. Hierzu gehören beispielsweise Start/Stop der Ein- bzw. Ausgabe, Wiederholung der Nachricht, Vorlauf/ Rücklauf, das Löschen und Ändern einer Nachricht.
[0018] Sprachinformationen können auch durch weitere Informationen, wie beispielsweise die Identität des Absenders, den Zeitpunkt des Absendens usw. ergänzt sein. Sind im Speicher SP Nachrichten für einen Teilnehmer eingetroffen, so kann ihm dies signalisiert werden. Für die neue zeitversetzte Art der Kommunikation, die eine zentrale Sprachspeicherung und die verwaltete Übermittlung der Sprachinformationen ermöglicht, kann als Endgerät der vorhandene Fernsprechapparat verwendet werden. Der Teilnehmer signalisiert seine Bedienwünsche durch Betätigen des Gabelkontaktes und der Wählvorrichtung. In umgekehrter Richtung kann er Wecker- und Ruftöne sowie aus einem entsprechenden Speicher entnommene gesprochene Anweisungen erhalten. Zur Beanspruchung der einzelnen Funktionen des Sprachspeichersystems VMS wählt also der Teilnehmer, der eine Sprachmitteilung für einen anderen Teilnehmer einspeichert, bestimmte Ziffern oder Ziffernkombinationen ein. Aufgrund dieser Steuerinformationen wird dann der jeweils zugeordnete Funktionsablauf veranlaßt.
[0019] Die ankommenden Sprachinformationen, die gegebenenfalls durch geräuschfreie oder geräuschbehaftete Pausen unterbrochen sind, können in der Weise vorbearbeitet sein, daß sie über die
[0020] Leitungsverbindung Lg als PCM-codierte Signalfolgen anliegen und über die Schnittstelle S weitergegeben werden. Eventuell an der Schnittstelle S eintreffende analoge Sprachinformations-signale, die ebenfalls durch geräuschfreie oder geräuschbehaftete Pausen unterbrochen sein können, werden abgetastet und pulscodemoduliert.
[0021] Alle an der Schnittstelle S eintreffenden Signalfolgen werden einer Auswerteeinheit A zugeführt. Diese Einheit erkennt Steuerinformationen, die Teilnehmer zur Signalisierung ihrer Bedienwünsche in den Informationsfluß einfügen. Derartige Steuerinformationen werden beispielsweise als im sogenannten Mehrfrequenzverfahren abgegebene MFV-Zeichen übermittelt. Das jeweilige Auswerteergebnis wird einer ersten Steuereinheit ST1 übermittelt, die ihrerseits mit der die Einspeichervorgänge steuernden zweiten Steuereinheit ST2 im Informationsaustausch steht.
[0022] Alle an der Schnittstelle S eintreffenden Signalfolgen werden ebenso einer ersten Verzögerungseinrichtung V1 zugeführt, die die Signalfolgen um eine bestimmte Verzögerungszeit verzögert. Die Verzögerungszeit ist so bemessen, daß sie mindestens diejenige Zeitspanne umfaßt, in der die Auswerteeinheit A eine Steuerinformation erkennt.
[0023] Die ursprünglich in serieller Form ausgebildeten Signalfolgen werden einer Seriell/Parallelwandlungseinrichtung WS zugeführt und in paralleler Form ausgegeben.
[0024] Die Verbindung mit den nachfolgenden Einheiten erfolgt über Leitungsanordnungen, die aus einer Anzahl Einzelleitungen bestehen, die der Bit-Breite der einzelnen Signalfolgewerte entspricht. Derartige Leitungsanordnungen sind in der FIG 1 schematisch durch parallele Doppellinien dargestellt.
[0025] Für die Weiterverarbeitung werden die von der Einrichtung WS abgegebenen digitalen Informationen, die mittels einer nichtlinearen, im Regelfall logarithmischen Kennlinie gebildet werderr, in aus einer linearen Kennlinie abgeleitete Informationen umgesetzt. Dies erfolgt durch die Einrichtung UN. Die von ihr abgegebene digitale Datenfolge wird einer Einrichtung DE zugeführt, die aus einer zweiten Verzögerungseinrichtung V2 und aus einer Detektor-Einrichtung DET besteht, in der, wie später noch erläutert wird, die Erkennnung von Sprachinformationen und Sprachpausen gemäß dem erfindungsgemäßen Verfahren erfolgt. In der der Einrichtung DE nachgeschalteten Verarbeitungseinrichtung VA1 werden die Sprachinformationen komprimiert, beispielsweise nach dem sogenannten adaptiven Differenz-PCM-Verfahren (ADPCM). Dabei wird grundsätzlich nur die Differenz zweier aufeinanderfolgender Abtastwerte codiert, so daß weniger Binärwertzeichen als bei einer normalen Codierung erzeugt werden. Eine weitere Bitratenreduzierung wird erreicht, indem weiterhin die Quantisierungsstufen dynamisch dem jeweiligen Durchschnittspegel angepaßt werden. Die dabei entstehenden Daten werden zusätzlich noch zu bei der Pulscodemodulation üblichen PCM-Worten von beispielsweise 8 Bit Breite verpackt.
[0026] Durch Codierung der erfindungsgemäß in der Einrichtung DET erkannten Sprachpausen wird eine weitere Reduzierung des Speicherbedarfs für die Abspeicherung der relevanten Datenfolgeteile erreicht. Sprachpausen beliebiger Länge sind eindeutig darstellbar durch eine die Sprachpause per se kennzeichnende Information und durch eine die Pausenlänge kennzeichnende Information. Die Sprachpausencodierung wird ebenfalls von der Verarbeitungseinheit VA1 durchgeführt. Bei Zuführung einer den Beginn einer Sprachpause kennzeichnenden Information von der Einrichtung DET löst die Verarbeitungseinrichtung VA1 die Zeitmessung der Pausenlänge aus und unterbricht den Zeitmeßvorgang, sobald ihr durch zugeführte Sprachinformationen bzw. durch ein besonderes Spracherkennungssignal das Pausenende signalisiert wird.
[0027] Die Komprimierung der Sprachinformationen und die bei der Codierung der Sprachpausen entstehenden Daten ergeben keinen kontinuierlichen Nutzdatenstrom. Die von der Verarbeitungseinrichtung VA1 gelieferten Verarbeitungsergebnisse werden asynchron zu der Speichereinheit SP über eine vorgeschaltete Sendeeinheit SE1 und eine Empfangseinheit EM1 übertragen.
[0028] in der Sendeeinheit SE1 wird das beispielsweise nach der beschriebenen Verpackung der reduzierten Abtastwerte entstandene Wort zu einem neuen Informationswort in der Weise zusammengefaßt, daß an den Anfang des Informationswortes ein Startbit und an das Ende Stopbits gesetzt werden. Ein solches vorangestelltes Startbit kann beispielsweise als binäre '0' und ein Stopbit als binäre '1' definiert sein.
[0029] Es kann beispielsweise vorgesehen sein, daß insgesamt sieben Stopbits in einem Wortformat von 16 Bit ausgesendet werden. In Zeiten, in denen keine Nutzdaten vorhanden sind, werden genügend Stopbits ausgesendet, um eine bestimmte Datenrate, beispielsweise 64 kBit/s, beizubehalten. Die Sendeeinheit SE1 wandelt außerdem die parallele Datenfolge in die serielle Darstellungsform zurück.
[0030] Die Empfangseinrichtung EM1 erkennt die ihr im Byterahmen zugeführten Worte und löst durch das Startbit am jeweiligen Wortanfang die Abspeicherung der eigentlichen Nutzdaten in die Speichereinrichtung SP aus.
[0031] Zur Ausspeicherung einer Sprachnachricht aus der Speichereinrichtung SP werden von dem hierzu berechtigten Teilnehmer zunächst Steuerinformationen übermittelt. Aufgrund von eingewählten Kennzahlen kann sich der betreffende Teilnehmer gegenüber dem Sprachspeichersystem VMS als berechtigt ausweisen oder er kann den Wunsch nach Wiederholung einer Nachricht signalisieren. Diese Steuerinformationen werden von der Einrichtung A ausgewertet und führen über die Einheit ST1 zu entsprechenden Informationen für die zweite Steuereinheit ST2.
[0032] In gleicher Weise, wie dies für den Einspeicherweg geschildert wurde, ist im Ausspeicherungszweig eine Sendeeinheit SE2 und eine Empfangseinheit EM2 angeordnet. Ihr Aufbau entspricht grundsätzlich dem für die Sendeeinheit SE1 und für die Empfangseinheit EM1 dargestellten Aufbau. Die abzugebenden Nutzinformationen werden für die Übertragung zu der Empfangseinheit EM2 in der Sendeeinheit SE2 gleichfalls durch ein Startbit und durch Stopbits ergänzt. Die Nutzinformationen werden von der Speichereinrichtung SP zu der Einheit EM2 asynchron übertragen.
[0033] Jeder Byterahmen wird von der Verarbeitungseinheit VA2 durch Aussenden eines besonderen Anforderungssignals aus der Speichereinrichtung SP angefordert. Das Zeitminimum zwischen zwei derartigen Anforderungssignalen entspricht wegen der zu verarbei- tenden 16 Bit-Wortbreite 16 Taktzeiten. In der Verarbeitungseinheit VA2 werden die in komprimierter Form dargestellten und in 8 Bit-paralleler Darstellung angebotenen Daten in standardgemäße PCM-Informationen umgewandelt.
[0034] In einem Umsetzgenerator UG wird eine Umsetzung der aufgrund einer linearen Kennlinie gebildeten digitalen Informationen in Informationen vorgenommen, denen eine logarithmische Kennlinie zugrundegelegt wird. Eine Einrichtung WP wandelt die ihr in paralleler Form zugeführten digitalen Informationen in serielle Form um. Die umgewandelten Informationen werden über die
[0035] Schnittstelle S unter Einbeziehung der Vermittlungsanlage KA zu einer Teilnehmerstelle Tl...Tn übertragen.
[0036] In FIG 2 ist die aus der Detektoreinrichtung DET und der zweiten Verzögerungseinrichtung V2 bestehende Einrichtung DE dargestellt.
[0037] Eine Datenfolge d, die sowohl Sprachinformationen als auch geräuschfreie oder geräuschbehaftete Sprachpausen in Form von Abtastwerten enthalten kann, wird der zweiten Verzögerungsein- richtύng V2 und der parallel zu ihr angeordneten Detektor-Einrichtung DET zugeführt.
[0038] Die Detektor-Einrichtung DET weist eingangsseitig drei hinter- einandergeschaltete Einrichtungen HPF, GR und TPF auf. Die Einrichtung HPF ist als Hochpaßfilter, beispielsweise 8. Ordnung ausgebildet. Ein derartiges Filter kann durch vier hintergeschaltete Filterstufen 2. Ordnung mit komplexkonjungierten Pol- und Nullstellen gebildet werden. Insbesondere kann die Einrichtung HPF Frequenzanteile unter 500 Hertz stark, dagegen Frequenzanteile über 600 Hertz nur geringfügig, dämpfen.
[0039] Die Einrichtung GR ist als Gleichrichteranordnung ausgebildet, die ein einen positiven Signalwert charakterisierendes Bit nicht verändert, während negative Signalwerte charakterisierende Bits in entsprechende Bits für positive Signalwerte umgewandelt werden.
[0040] Nach dieser Vorzeichenumsetzung werden die Informationen der als Tiefpaßfilter ausgebildeten Einrichtung TPF zugeführt, die beispielsweise als rekursiver Tiefpaß ausgebildet ist. Im Ausführungsbeispiel enthält dieser für sich bekannte Tiefpaß einen Addierer, der an seinem Ausgang eine gemittelte Größe abgibt. Insbesondere werden Frequenzanteile über 3400 Hertz ausgeblendet.
[0041] Die in dieser Weise vorverarbeitete, bandbegrenzte Datenfolge d wird der in der Detektor-Einrichtung DET enthaltenen Schwellwertbildungseinrichtung SBE zugeführt.
[0042] Die Schwellwertbildungseinrichtung SBE besteht aus einer Spitzenwertextraktionseinrichtung SWSG und einer zu dieser parallel angeordneten Niedrigwertextraktionseinrichtung SWSK, der eine Pegelbegrenzungseinrichtung BG sowie eine zweite Multiplikationseinrichtung M2 nachgeschaltet ist. Der Spitzenwertextraktionseinrichtung SWSG ist eine erste Multiplikationseinrichtung M1 nachgeschaltet. Ausgangsseitig führen beide Multiplikationseinrichtungen M1 und M2 auf zwei Eingänge einer als Addierwerk ausgebildeten Verknüpfungseinrichtung AW. Eine Vergleichseinrichtung KOM1 ist eingangsseitig mit der Verknüpfungseinrichtung AW und mit einer dritten Verzögerungseinrichtung V3 verbunden, die im betrachteten Zusammenhang aber auch entfallen könnte, bzw. eine gegen "0" tendierende Verzögerungszeit aufweisen könnte. Der Vergleichseinrichtung KOMI ist ein erstes Zeitglied ZGl sowie ein von einer dritten Steuerungseinrichtung ST3 der Detektor-Einrichtung DET steuerbarer Schalter SS nachgeschaltet.
[0043] Die Spitzenwertextraktionseinrichtung SWSG und die Niedrigwertextraktionseinrichtung SWSK sind unabhängig voneinander arbeitende Einrichtungen, die gemeinsam zur Bildung eines als Trennlinie zwischen Sprachinformation und Geräusch definierten Pegelschwellwertes SW3 ausgenutzt sind.
[0044] Bei Verfahrensbeginn wird der Spitzenwertextraktionseinrichtung SWSG, die anhand von FIG 3 und der Niedrigwertextraktionseinrichtung SWSK, die anhand von FIG 4 noch detailliert beschrieben wird, der momentane Pegelwert der Datenfolge d zugeführt.
[0045] Innerhalb weniger Abtastperioden, d.h. bereits nach etwa einigen Millisekunden wird die Einstellung eines brauchbaren Pegelschwellwertes erreicht.
[0046] Die Wirkungsweise der Spitzenwertextraktionseinrichtung SWSG und der Niedrigwertextraktionseinrichtung SWSK bzw. die Gewinnung von zwei Pegelregulierungswerten, aus denen der
[0047] Pegelschwellwert gebildet wird ist prinzipiell folgendermaßen: Nach Abspeicherung des ersten auftretenden Pegelwertes in beiden Extraktionseinrichtungen SWSG, SWSK wird jeder nachfolgende Pegelwert der Datenfolge d daraufhin untersucht, ob er - für die Spitzenwertextraktionseinrichtung SWSG - größer bzw. - für die Niedrigwertextraktionseinrichtung - kleiner als der bisher gespeicherte Pegelwert ist. Ist dies der Fall so wird von der Spitzenwertextraktionseinrichtung SWSG dieser größere Pegelwert, bzw. von der Niedrigwert-Extraktionseinrichtung SWSK dieser niedrigere Pegelwert übernommen. Vom Moment der Übernahme eines neuen Spitzenwertes bzw. eines neuen Niedrigwertes werden die dadurch neu gebildeten Aufnahmeschwellen allmählich abgesenkt bzw. erhöht bis ein entsprechender neuer Pegelwert die Spitzenwert-Aufnahmeschwelle überschreitet bzw. die Niedrigwert-Aufnahmeschwelle unterschreitet. Die Methode der ver- . zögerten Veränderung der Aufnahmeschwellen wird für die Spitzenwert-Extraktionseinrichtung SWSG später anhand der FIG 3 und für die Niedrigwert-Extraktionseinrichtung SWSK später anhand der FIG 4 erläutert. Die der Spitzenwertextraktionseinrichtung SWSG nachgeschaltete Multiplikationseinrichtung Ml kann bezüglich eines Multiplikationsfaktors so eingestellt sein, daß beispielsweise jede von der Spitzenwertextraktionseinrichtung SWSG gelieferte momentane Spitzenwert-Aufnahmeschwelle um etwa 12 dB erniedrigt wird. In ähnlicher Weise wird durch die Multiplikationseinrichtung M2 erreicht, daß der von der Niedrigwertextraktionseinrichtung SWSK gelieferte Niedrigwert-Aufnahmeschwellwert beispielsweise um 6 dB erhöht wird. Am Ausgang der beiden Multiplikationseinrichtungen Ml, M2 sind damit die beiden Pegelregulierungswerte SWl, SW2 gebildet, die mittels des nachgeschalteten Addierwerks AW addiert werden. Als Ergebnis dieser Addition liegt der Pegelschwellwert SW3 vor, der zwischen dem Geräuschpegel und dem Sprachinformationspegel liegt und in seiner Lage in diesem Bereich permanent in Abhängigkeit vom Geräuschpegel und vom Sprachpegel variiert wird. Die Multiplikationsfaktoren der Multiplikationseinrichtungen Ml, M2 werdem mittels der dritten Steuerungseinrichtung ST3 eingestellt. Eine Veränderung der Multiplikationsfaktoren, beispielsweise im Sinne einer Anpassung an bestimmte vorherrschende Leitungsverhältnisse - z.B. stark geräuschbehaftet - ist jederzeit leicht möglich.
[0048] Die Pegelbegrenzungseinrichtung BG verhindert, daß die allmähliche Anhebung der Niedrigwert-Aufnahmeschwelle bis zum Auftreten von den momentanen Aufnahmeschwellwert unterschreitenden Pegelwerten im Falle von langanhaltenden Dauertönen - also dem entsprechend langen Ausbleiben niedrigerer Pegelwerte zu unzulässig bzw. wenigstens unnötig hohen Pegelregulierungswerten führt. In der Vergleichseinrichtung KOMI wird der durch die Verknüpfung der Pegelregulierungswerte SWl, SW2 gebildete Pegelschwellwert SW3 mit den Pegeln der Datenfolge d, verglichen: In Zeiten, in denen die Pegelwerte der Datenfolge d mindestens den momentanen Pegelschwellwert SW3 aufweisen, werden ausgangsseitig Spracherkennungssignale Jl, beispielsweise in Form einer aus Signalelementen "I" bestehenden Signalelementfolge, abgegeben; in Zeiten, in denen die Pegelwerte der Datenfolge d den momentanen Pegelschwellwert SW3 unterschreiten, werden ausgangsseitig Pausenerkennungssignale Nl, beispielsweise in Form einer aus Signalelementen "0" bestehenden Signalelementfolge, abgegeben.
[0049] Das der Vergleichseinrichtung KOMI nachgeschaltete Zeitglied ZGl verlängert die Spracherkennungssignale Jl um einen bestimmten Zeitraum von beispielsweise 500 Millisekunden, um bis in den Geräuschpegel hinein abklingende Sprachbestandteile nicht zu unterdrücken.
[0050] Die durch die Einrichtungen HPF, GR und TPF vorverarbeitete, bandbegrenzte Datenfolge d wird auch der parallel zur Schwellwertbildungseinrichtung SBE angeordneten zweiten Vergleichseinrichtung K0M2 zugeführt. Der Vergleichseinrichtung K0M2 wird außerdem ein konstanter Referenzwert RW zugeführt, der so gewählt wird, daß er voraussichtlich die Erkennung von Sprachinformationen und Sprachpausen erlaubt. Mit dem dadurch möglichen Vergleich des momentanen Pegels mit einem verhältnismäßig niedrigen - nur unwesentlich größer als ein größerer Geräuschpegel - Pegelwert können störende Nebensprecheffekte unterbunden werden. Die Einrichtung K0M2 wird bei erkanntem Sprachbeginn jeweils für eine bestimmte Zeit, beispielsweise acht Sekunden, aktiviert. Nach Ablauf dieser Zeit wird. die Einrichtung deaktiviert, sofern nicht ein weiterer Sprachbeginn oder die Fortsetzung gesprochener Informationen erkannt wird. Mittels Nebensprechen ermöglichtes Mithören auf anderen Leitungen wird daher nach maximal 8 sec unterbunden. Unterschreiten Datenfolgepegel d den zweiten Referenzwert RW, so gibt die Vergleichseinrichtung KOM2 ausgangsseitig zweite Pausenerkennungssignale N2 ab, beispielsweise in Form von aus Signalelementen "0" bestehenden Signalelementfolgen; andernfalls gibt sie zweite Spracherkennungssignale J2, beispielsweise in Form von aus Signalelementen "1" bestehenden Signalelementfolgen ab. Diese die Erkennung von Sprachinformationen kennzeichnenden Signalelementfolgen werden durch das nachgeschaltete Zeitglied ZG1 um einen bestimmten Zeitraum verlängert, um wie schon im Zusammenhang mit dem Zeitglied ZG1 erläutert wurde, das Ausklingen von Sprachbestandteilen zu erhalten.
[0051] Die ersten und zweiten Spracherkennungssignale 31 und 32 und die ersten und zweiten Pausenerkennungssignale N1 und N2 werden einem UND-Gatter UND zugeführt, das ausgangsseitig dritte Spracherkennungssignale 33 oder dritte Pausenerkennungssignale N3 abgibt.
[0052] Die zu der Detektoreinrichtung DET parallel geschaltete Verzögerungseinrichtung V2 bildet eine Verzögerungszeit, die die Einschwingzeiten des Filterteils überbrückt und eine 'sanfte' Einleitung von Sprachbestandteilen ermöglicht.
[0053] FIG 3 zeigt ein Blockschaltbild der Spitzenwertextraktionsein- richtung SWSG. Diese besteht aus einer Vergleichsschaltung KOM3, einer ersten Selektorschaltung SE1, einer Verzögerungsstufe V4, einer zweiten Selektorschaltung SE2, einer dritten Multiplikationseinrichtung M3 sowie einer ersten Zeitsteuerung ZS1. Die im Sinne einer Glättung vorverarbeitete Datenfolge d wird der Vergleichsschaltung KOM3 zugeführt und dort mit der durch die Verzögerungsstufe V4 verzögerten Datenfolge verglichen. Die durch die Verzögerungsstufe V4 gebildete Verzögerungszeit entspricht der einer Abtastperiode. Übersteigen nun die Pegel der zugeführten Datenfolge d den am Ausgang der Multiplikationseinrichtung M3 gebildeten Pegelwert (momentane Spitzenwert-Aufnahmeschwelle) so steuert die Vergleichseinrichtung KOM3 die erste Selektorschaltung SE1 in der Weise, daß diese den größeren Pegelwert übernimmt. Im anderen Fall wird der der ersten Selektorschaltung SE1 von der zweiten Selektorschaltung SE2 zugeführte Wert übernommen.
[0054] Der Multiplikationsfaktor der Multiplikationseinrichtung M3 wird durch die in FIG 2 dargestellte Steuerungseinrichtung ST3 eingestellt und weist einen Wert geringfügig kleiner als 1, beispielsweise 0,99, auf. Mit der Zeitsteuerung ZS1 werden die Zeiträume bestimmt, in denen der geringfügig verringerte Aufnahmeschwellwert von der Selektoreinrichtung SE2 übernommen wird. Beispielsweise kann jeweils innerhalb von 128 Abtasteinheiten nur einmal der kleinere Wert übernommen werden. Der zeitliche Verlauf bzw. die Zeitkonstante der Absenkung der Spitzenwert-Aufnahmeschwelle werden also sowohl durch den Multiplikationsfaktor als auch durch die mittels der Zeitsteuerung beeinflußbare Übernahmerate bestimmt.
[0055] Die Niedrigwertextraktionseinrichtung SWSK könnte in gleicher Weise wie die Spitzenwertextraktionseinrichtung SWSG aufgebaut sein, wobei die Vergleichsschaltung SE1 den kleineren der beiden an ihrem Eingang zugeführten Werte übernähme und die Multiplikationseinrichtung M3 die von der Verzögerungseinrichtung VS4 zugeführten ursprünglichen Pegelwerte mit einem Faktor wenig größer als 1, beispielsweise 1,01, multiplizierte.
[0056] Die Niedrigwertextraktionseinrichtung SWSK kann jedoch auch in anderer Weise, beispielsweise wie in FIG 4 dargestellt, realisiert werden: Geht man davon aus, daß die Pegelwerte der eingangs zugeführten Datenfolge d in einem Bereich zwischen 0 und 1 liegen, so werden diese ankommenden Signale durch eine Subtraktionseinrichtung SUB1 von ' 1' subtrahiert. Die in FIG 4 dargestellte Ausführungsform einer Niedrigwertextraktionsein richtung SWSK besteht aus dieser ersten Subtraktionseinrichtung SUBl, aus einer Vergleichseinrichtung K0M4, aus einer dritten und vierten Selektoreinrichtung SE3 und SE4, einer fünften Verzögerungseinrichtung V5, einer vierten Multiplikationseiπ- richtung M4, einer zweiten Zeitsteuerung ZS2 sowie aus einer zweiten Subtraktionseinrichtung SUB2. Da alle auftretenden Pegelwerte von 'I' subtrahiert werden, fuhren die niedrigsten Pegelwerte zu den höchsten Aufnahmeschwellwerten. Es kann daher eine mit der Spitzenwertextraktionseinrichtung SWSG identische schaltungstechnische Realisierung für die Niedrigwert- extraktionseinrichtung SWSK gewählt werden. Die Multiplikationseinrichtung M4 und die zweite Zeitsteuerung ZS2 wirken also in gleicher Weise wie die gleichartigen Einrichtungen M3, ZSl der Spitzenwertextraktionseinrichtung SWSG. Nach der Spitzenwertextraktion werden die gebildeten Werte in der Einrichtung SUB2 wiederum von 'I' subtrahiert.
[0057] 12 Patentansprüche 4 Figuren

权利要求:
ClaimsPatentansprüche
1. Verfahren zur Unterscheidung von Sprachsignalen von Signalen geräuschfreier oder geräuschbehafteter Sprachpausen in einer Datenfolge mittels eines unter Berücksichtigung von den Sprachpausensignalen entsprechenden Sprachpausenpegeln variierbaren Pegelschwellwertes, d a d u r c h g e k e n n z e i c hn e t , daß jeweils Spitzenwerte von den Sprachsighalen entsprechenden Sprachpegeln derart registriert werden, daß nach Aufnahme eines Spitzenwertes eine entsprechend eingestellte Spitzenwert-Aufnahmeschwelle solange allmählich abgesenkt wird, bis ein neuer Spitzenwert die Spitzenwert-Aufnahmeschwelle übersteigt und registriert wird und daß jeweils Niedrigwerte der Sprachpausenpegel derart registriert werden, daß nach Aufnähme eines Niedrigwertes eine entsprechend eingestellte Niedrigwert-Aufnahmeschwelle solange allmählich angehoben wird, bis ein neuer Niedrigwert die Niedrigwert-Aufnahmeschwelle unterschreitet und registriert wird und daß aus den jeweils aktuellen Spitzenwert-Aufnahmeschwellenwerten durch eine einstellbare Verringerung und Niedrigwert-Aufnahmeschwellenwerten durch eine einstellbare Vergrößerung gewonnene Pegelregulierungswerte (SW1,SW2) derart zur Bildung des Pegelschwellwertes (SW3) miteinander verknüpft werden, daß bei sehr großem Abstand der jeweils aktuellen Niedrigwert-Aufnahmeschwelle und Spitzenwert-Aufnahmeschwelle der Pegelschwellwert (SW3) zumindest überwiegend durch den der Spitzenwert-Aufnahmeschwelle entsprechenden Pegelregulierungswert (SW1) bestimmt und bei sehr kleinem Abstand der jeweils aktuellen Niedrigwert-Aufnahmeschwelle und Spitzenwert-Aufnahmeschwelle durch den der Niedrigwert-Aufnahmeschwelle entsprechenden Pegelregulierungswert (SW2) signifikant mitbestimmt wird.
2. Verfahren nach Anspruch 1, d a d u r c h g e k e n n z e i c h n e t , daß die Pegelregulierungswerte (SW1,SW2) zur Bildung des Pegelschwellwertes (SW3) miteinander addiert werden.
3. Verfahren nach Anspruch 1 oder 2, d a d u r c h g e k e n n z e i c h n e t , daß bei Unterschreiten eines vorgegebenen Abstandswertes zwischen den beiden Pegelregulierungswerten (SWl, SW2) der größere der beiden Pegelregulierungswerte (SWl, SW2) als Pegelschwellwert (SW3) festgelegt wird.
4. Verfahren nach einem der Ansprüche 1 bis 3, d a d u r c h g e k e n n z e i c h n e t , daß die Zeitkonstante für die Absenkung der Spitzenwert-Aufnahmeschwelle wenige Sekunden, vorzugsweise 3s bis 5s, und die Zeitkonstante für die Anhebung der Niedrigwert-Aufnahmeschwelle ein Mehrfaches, vorzugsweise etwa das 6 - 12-fache, beträgt.
5. Anordnung zur Durchführung des Verfahrens nach einem der An- sprüche 1 bis 4, d a d u r c h g e k e n n z e i c h n e t , daß eine Spitzenwert-Extraktionseinrichtung (SWSG) und eine Niedrigwert-Extraktionseinrichtung (SWSK) einander parallel geschaltet und derart ausgebildet sind, daß nur eine aktuelle Spitzenwert-Aufnahmeschwelle überschreitende Sprachpegel bzw. eine aktuelle Niedrigwert-Aufnahmeschwelle unterschreitende Sprachpausenpegel aufgenommen und gespeichert werden.
6. Anordnung nach Anspruch 5, d a d u r c h g e k e n n z e i c h n e t , daß dem Ausgang der Spitzenwert-Extraktions- einrichtung (SWSG) eine der Erzeugung des Pegelregulierungswertes (SWl) dienende, vorzugsweise als Multiplikationseinrichtung (Ml) ausgebildete Dämpfungseinrichtung nachgeschaltet ist.
7. Anordnung nach Anspruch 5 oder 6, d a d u r c h g e - k e n n z e i c h n e t , daß dem Ausgang der Niedrigwert-Extraktionseinrichtung (SWSK) eine der Erzeugung des Pegelregulierungswertes (SW2) dienende, vorzugsweise als Multiplikationseinrichtung (M2) ausgebildete Verstärkereinrichtung nachgeschaltet ist.
8. Anordnung nach Anspruch 7, d a d u r c h g e k e n n z e i c h n e t , daß zwischen die Niedrigwert-Extraktionseinrichtung (SWSK) und die Verstärkereinrichtung (M2) eine Pegelbegrenzungseinrichtung (BG) eingefügt ist.
9. Anordnung nach einem der Ansprüche 5 bis 8, d a d u r c h g e k e n n z e i c h n e t , daß der Ausgang der Dämpfungseinrichtung (M1) bzw. der Verstärkereinrichtung (M2) jeweils an einen Eingang eines Addierwerks (AW) angeschlossen sind, an dessen Ausgang der jeweilige aktuelle Pegelschwellwert (SW3) abgegeben wird.
10. Anordnung nach einem der Ansprüche 1 bis 9, d a d u r c h g e k e n n z e i c h n e t , daß die Spitzenwert-Extraktionseinrichtung (SWSG) eine Multiplikationseinrichtung (M3) aufweist, die in jeder Pegel-Abtastperiode die Spitzenwert-Aufnahmeschwelle mit einem geringfügig kleiner als "1" gewählten Faktor multipliziert, und eine Selektionseinrichtung (SE2) aufweist, die den multiplizierten Pegelwert nur in einem einstellbaren Teil der Abtastperioden als neue Spitzenwert-Aufnahmeschwelle übernimmt.
11. Anordnung nach einem der Ansprüche 1 bis 10, d a d u r c h g e k e n n z e i c h n e t , daß die Niedrigwert-Extraktionseinrichtung (SWSK) eine Multiplikationseinrichtung (M4) aufweist, die in jeder Pegel-Abtastperiode die Niedrigwert-Aufnahmeschwelle mit einem Faktor multipliziert, und eine Selektionseinrichtung (SE4) aufweist, die den multiplizierten Pegelwert nur in einem einstellbaren Teil der Abtastperioden als neue Niedrigwert-Aufnahmeschwelle übernimmt.
12. Anordnung nach Anspruch 11, d a d u r c h g e k e n n z e i c h n e t , daß die Niedrigwert-Extraktionseinrichtung (SWSK) eine erste Subtrahiereinrichtung (SUB1) aufweist, in der die zugeführten Pegelwerte von einem festen groß ten Pegelwert subtrahiert werden, daß die Niedrigwert-Aufnahmeschwelle mit einem kleiner als "1" gewählten Faktor multipliziert wird und daß der Pegelregulierungswert (SW2) am Ausgang einer zweiten Subtrahiereinrichtung (SUB2) abgegeben wird, in der der aktuelle Pegelwert erneut von demselben festen größten Pegelwert subtrahiert wird.

类似技术:

公开号 | 公开日 | 专利标题

US4979214A|1990-12-18|Method and apparatus for identifying speech in telephone signals

CN1097360C|2002-12-25|数字移动通信系统中的回声消除

US5023906A|1991-06-11|Method for monitoring telephone call progress

US8174981B2|2012-05-08|Late frame recovery method

US4959865A|1990-09-25|A method for indicating the presence of speech in an audio signal

JP3321086B2|2002-09-03|シンボルテーブル動的最適化システム

EP1154408B1|2007-06-27|Multimodale Sprachkodierung und Geräuschunterdrückung

US4965822A|1990-10-23|Full duplex speakerphone

DE19580846C1|2000-11-16|Verfahren zur Echolöschung mit Doppelsprechimmunität

Un et al.1975|The residual-excited linear prediction vocoder with transmission rate below 9.6 kbits/s

US5640433A|1997-06-17|Conversion of synchronous/asynchronous signals

DE69724739T2|2004-07-22|Verfahren zur Erzeugung von Hintergrundrauschen während einer diskontinuierlichen Übertragung

US4449190A|1984-05-15|Silence editing speech processor

US6246885B1|2001-06-12|Digital FM audio processing in a dual-mode communication system

US4837804A|1989-06-06|Telephone answering voiceprint discriminating and switching apparatus

US8379779B2|2013-02-19|Echo cancellation for a packet voice system

CA2232755C|2001-05-22|Employing customer premises equipment in communications network maintenance

US4277645A|1981-07-07|Multiple variable threshold speech detector

US4891837A|1990-01-02|Voice control circuit for a communication terminal

RU2140671C1|1999-10-27|Способ передачи речевой информации, а также передатчик и приемник для его осуществления

US5029200A|1991-07-02|Voice message system using synthetic speech

US4554418A|1985-11-19|Information monitoring and notification method and apparatus

EP0791251B1|1998-07-15|Echokompensator, der eine kreuzkorrelation zwischengespeicherter empfangs- und sendeabtastwertsegmente zur bestimmung des kompensatorfilterkoeffizienten verwendet

US4267593A|1981-05-12|Method and means for digital conferencing

JP2790978B2|1998-08-27|コンピュータに基づいた多機能パーソナル通信システムのためのデュアルポートインターフェース

同族专利:

公开号 | 公开日

AT66539T|1991-09-15|

AU582962B2|1989-04-13|

EP0238075A1|1987-09-23|

EP0238075B1|1991-08-21|

DE3772230D1|1991-09-26|

JPH0379908B2|1991-12-20|

JPS63500560A|1988-02-25|

ES2023836B3|1992-02-16|

AU7282387A|1987-10-09|

引用文献:

公开号 | 申请日 | 公开日 | 申请人 | 专利标题

法律状态:
1987-09-24| AK| Designated states|Kind code of ref document: A1 Designated state(s): AU JP US |

优先权:

申请号 | 申请日 | 专利标题

[返回顶部]